НОВАЯ ТЕОРИЯ ПРИЗНАКОВ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ
Н.Г.Федотов
Пензенский государственный университет
Abstract — The paper is dealing with the theory of forming the image features, independent of image movements , rotations and homotheties. This method has the following distinctive properties: many new features can be constructed easily as well as the functionals for standard images movement characteristics measurement; the theory can be expanded to tone and colored images; the soft computation can be easily performed in massive parallel algorithms.
В распознавании образов традиционно выделяют два этапа: формирование признаков и решающую процедуру. В кибернетической литературе исторически сложилось так, что подавляющее большинство работ по распознаванию образов посвящено решающим правилам и практически нет работ по формированию признаков. Этот этап по общепринятому мнению является эмпирическим и зависит от интуиции проектировщика распознающей системы.
Подход с позиций стохастической геометрии, развитый в работе
[1] и дополненный принципом мягких вычислений, позволяет восполнить этот пробел и, наряду с конструктивной теорией признаков, дать практические методы генерации большого числа признаков распознавания изображений. Столь мощное смещение акцента с решающих правил на новые признаки распознавания дает основания говорить о новом понимании изображений.В работе
[1] предложено в качестве признаков распознавания изображений использовать вероятности геометрических событий, под которыми понимают результат взаимодействия геометрических объектов: пересечения, покрытия и т.п. Роль геометрических объектов выполняют, с одной стороны, сложные траектории сканирования со случайными параметрами (отрезки, линии, кривые, фигуры и т.п.), с другой стороны фрагменты распознаваемого изображения. Рассматривается структура подобных распознающих систем, примеры конкретных технических реализаций. В работе [1] рассмотрены также возможные расширения базисного метода распознавания, основанного на стохастической геометрии. Одно из расширений связано с усложнением наблюдений случайного события - пересечения линий развертки с изображением, т.е. связано с применением более сложных признаков распознавания.В работе представлены начала новой теории формирования признаков распознавания, независящих от движений изображений, а также от их линейной деформации, иначе говоря, от афинных преобразований. Отличительной чертой группы рассматриваемых признаков является представление каждого из них в виде последовательной композиции трех функционалов, поддающихся мягким вычислениям
.Рассмотрим входную сетчатку распознающего устройства, под которой будем понимать сканируемую часть плоскости изображения. В этой части плоскости располагается некоторое изображение, тогда как оставшаяся часть плоскости фоновая. Таким образом изображение финитно. Рассмотрим случайную прямую
Математическая сторона рассмотренной процедуры интенсивно исследовалась в стохастической геометрии. Было выяснено, что при некоторых условиях характеристика
n может иметь явный геометрический смысл. Для нас важно, что, легко реализуясь в устройствах, эта идея может служить исходной точкой для получения новых признаков распознавания образов как в теоретическом анализе, так и в практической сфере.В [1
] приводятся формулы, на основе которых строятся критерии распознавания. Рассматриваются только бинарные изображения (черные фигуры на белом фоне).1. Рассмотрим изображение в виде кусочно-дифференцируемой кривой, которая может быть границей фигуры. Пусть
g - число пересечений этой кривой со случайной прямой2. Рассмотрим изображение в виде выпуклой фигуры. Это может быть выпуклая оболочка некоторой другой фигуры. Пусть
g - длина пересечения выпуклой фигуры со случайной прямойВ данной работе предлагается обобщение приведенного выше подхода с целью преодоления его недостатков и с сохранением достоинств, причем это обобщение в некотором смысле полное.
Обозначим буквой
F финитное изображение. Если дана прямаяАналогично, так и в стохастической геометрии, определена случайная величина
g=Т(Отметим еще одно свойство вполне инвариантного функционала Т (Тгасе): он не обязательно определяется лишь сечением прямой изображения. Для его вычисления может быть привлечена также и другая информация, например, свойства окрестности этого сечения.
Чтобы понять, что предложенное обобщение в некотором смысле исчерпывает все его возможности, изложим теорию Тгасе-преобраэований (или Тг-преобразований). Прямая
где х,у - декартовы координаты на плоскости. Если позволить параметру р принимать также и отрицательные значения, то
Таким образом, множество всех направленных прямых, пересекающие круг радиусом й с центром в начале координат (“сетчатку”), однозначно параметризуется множеством
М ={(j ,р):
0при условии, что параметры (0,р) и (
Будем считать дополнительно, что если прямая
Заметим, что известное преобразование Радона может рассматриваться как пример Тг-преобразования.
Коротко остановимся на том, как меняется изображение Тг(
F) при сдвигах и вращениях исходного изображения F. Если первоначальное изображение поворачивается, то его Тг-образ сдвигается по горизонтальной оси 0j . Если же происходит сдвиг исходного изображения на некоторый вектор, то его Тг-образ претерпевает следующие преобразования. Лучше их изложить в терминах Тг-матриц. Столбцы остаются неизменными, на своих местах, но могут сдвигаться вверх или вниз.Обычная евклидова мера
dj dp листа Мебиуса инвариантна к указанным преобразованием, поэтому плотность распределения всякой функции, заданной на листе Мебиуса, в данном случае функций изображения Тг(F), не зависит от указанных преобразований, т. е. если изображение F сдвинуто и повернуто до состояния F', то распределения значений функций изображений Тг(F) и Тг(F') одинаковы. Именно поэтому их значения могут трактоваться как случайные функции, не зависящие от движений исходного изображения. Этим доказано, что при данном выше обобщении признаков, действительно, сохраняется инвариантность.Триплетные признаки
.Рассмотрим формирование триплексных признаков, представляющих последовательную композицию трех функционалов:
П(
F) = Ф(Р(Т(F(Каждый функционал (Ф, Р и Т) действует на функции одной переменной (j , р и
t) соответственно. Для каждого из трех функционалов легко можно придумать десятки разных конкретизаций, удовлетворяющих требуемым условиям. Следовательно, сразу получаем тысячи новых признаков, инвариантных к движениям. Для распознавания 2n объектов требуется порядка n признаков, следовательно, мы получаем возможность распознавать очень большое число изображений, например идеограмм.Функционал
Т, соответствующий Тг-преобразованию, подробно рассмотрен выше. В дискретном варианте вычислений результат этого преобразования, или Тг-трансформанта Т(Р·Рассмотренные триплетные признаки распознавания могут быть вычислены в высшей степени параллельном процессе. Подобно признакам, формируемым нейронными сетями, данные признаки не имеют наперед заданного смысла, их отбор осуществляется в ходе машинного эксперимента, принимая во внимание исключительно лишь их полезность для классификации.
Работа поддержана Российским Фондом
Фундаментальных исследований (проект 97-01-00106).Литература
Site of Information
Technologies Designed by inftech@webservis.ru. |
|